چه کسی چه موقع واقعاً صحبت می کند؟ جداسازی و شناسایی گوینده ها در محیطی متشکل از چند گوینده با استفاده از الگوریتم های نوین

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق
نویسنده مسعود میررضایی
استاد راهنما محمد احدی سرکانی
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1386

چکیده

در این پژوهش، وظیفه مشخص سازی گفتار مربوط به هر گوینده خاص در یک فضای متشکل از چندین گوینده بدون همپوشانی میان گویندگان با فرض مشخص بودن تعداد گویندگان می باشد. در اینجا هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و تا حد امکان، گفتار هر گوینده را بدون دانستن اطلاعات قبلی از وی و هر گونه آموزش برای سیستم، برچسب گذاری نماید یعنی مشخص نماید که کدام گوینده و در چه زمانی صحبت کرده است. به همین منظور ابتدا در فصل اول آشنایی مختصری با مبحث خوشه بندی و بخش بندی گوینده در یک فضای چند گوینده و معرفی کارها وروشهای انجام شده در این زمینه، خواهیم داشت وبه پیاده سازی یکی از معروفترین آنها با نام distbic به منظور مقایسه با روش پیشنهادی می پردازیم. به منظور تست روشهای مطرح شده در این پژوهش از دو داده گفتاری که یکی از آنها darpa timit و دیگری داده فارسی فارس دات (farsdat) می باشد، استفاده شده است. در فصل دوم به شرح کامل روش جداسازی و برچسب زنی با استفاده از mutual information می پردازیم و بیانی از نحوه محاسبه آن و بهینه سازی آن به وسیله الگوریتم ژنتیکgenetic algorithm (ga) خواهیم داشت. در فصل سوم به بیان الگوریتم پیشنهادی به وسیله بهینه ساز دسته ذرات یا particle swarm optimization(pso) پرداخته می شود و نتایج آن با روشهای پیشین مقایسه می گردد. در فصل چهارم به منظور مقاوم سازی الگوریتم ارایه شده با استفاده از ga نسبت به محیط های نویزی با استفاده از روش autocorrelation-based noise subtraction (ans) اقدام به مقاوم کردن آن نموده ایم و نتایج حاصل از آنها را بیان می نماییم و در انتها نیز نتیجه گیری و پیشنهاداتی برای کارهای آینده بیان گردیده است که نشان دهنده بهتر بودن روش ارایه شده نسبت به سایر روشهای موجود می باشد.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

معرفی کتاب: چه هنگام علم با دین تلاقی می کند؟

متن کامل

چه کسی از ارزیابی دقیق می‌ترسد؟

متن کامل

در درس فلسفه چه می آموزیم و از آموزش آن چه بهره ای می بریم

فلسفه را معمولا در عرض علوم قرار می دهند و با موازین و ملاکهای متدولوژی علم در باب آ ن حکم می کنند و حال آْنکه فلسفه بحث در شرایط امکان وجود چیزها چیست (و از جمله علم) است بر اثر این اشتباه است که گاهی بعضی از دانشمندان با فلسفه مخالفت می کنند. اگر بتوان اختلاف علم و فلسفه را روشن ساخت بسیار یاز انی اختلافها از میان می رود فلسفه نه فقط با علم مخالف نیست بلکه علوم در طی دو هزار سال و مخصوصا علم ...

متن کامل

تلویزیون با کودکان ما چه می کند؟

مقاله پیش رو تلاشی برای نشان دادن اثرات مختلف تلویزیون بر کودکان است.برای این منظور ابتدا، به اثرات مثبت آن از جمله :رشد فکری و هوش بهر (i.q ) کودکان پرداخته شده ودر ادامه، اثرات منفی این رسانه که بروز بیماری ، خشونت ، ضعف بینایی و کاهش خلاقیت در کودکان را شامل می شود، مشخص شده است. در خاتمه نیز راهکارهایی برای بالا بردن رشد فکری کودکان ارائه شده است.

متن کامل

مثنوی به چه دعوت می کند

در این پایان نامه، آموزه های کاربردی مثنوی معنوی استخراج شده و براساس بسامد به کاررفتن هر آموزه، در قالب یک نظام ارائه شده است . هدف اینست تا براساس بسامد به کاررفتن هر آموزه مشخص شود چه آموزه هایی بیشتر ذهن مولانا را به خود مشغول می داشته است و چه آموزه هایی کمتر، مثنوی او بیشتر به چه اموری تحریض داشته و از چه اموری برحذر می دارد.

15 صفحه اول

جهت یابی چند گوینده با استفاده از روش WCSSDOA

In this paper we propose the spatial sparsity based WCSSDOA method for multi speakers' Direction of arrival estimation. In the proposed method the sparse modeling is done based on the sensor signals' correlation matrix, which leads to low computational complexity. In this method the SVD decomposition of the noise covariance matrix is proposed to reach the free noise sparse model, which leads to...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق

کلمات کلیدی

معیار اطلاعات بیزی نشانه گذاری بهینه سازی گرده ذرات قطعه بندی segmentation بازشناسی گوینده speaker recognition الگوریتم ژنتیکی genetic algorithm گفتارشناسی speech recognition پردازش گفتار speech processing رمزگذاری گفتار speech coding خوشه ای کردن الگو

میزبانی شده توسط پلتفرم ابری doprax.com